package cc.mrbird.febs.common.utils;

import com.huaban.analysis.jieba.JiebaSegmenter;

import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.lang.reflect.Array;
import java.nio.charset.StandardCharsets;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;
import java.util.Locale;

import com.huaban.analysis.jieba.WordDictionary;
import org.apache.commons.lang3.StringUtils;
public class JiebaSegWords {

    static JiebaSegmenter segmenter;
    static {
        //WordDictionary.getInstance().loadDict();

        segmenter = new JiebaSegmenter();
    }

    public  static String getJiebaResult(String words){


        //words="东方站有个王老头，他的名字叫做余永恒。发现岩泊渡工区有故障。我们有了新的《广铁集团铁路营业线施工安全管理实施细则》实施条例";
        List<String> segResult=segmenter.sentenceProcess(words);
        String result=StringUtils.join(segResult.toArray(), " ");
        return result;

//        给单词加上频率为3  jieba 1.0.2 dict文件中的单词必须有频率，而github上的最新版不必有频率
//        但是maven中只有1.0.2版本，没有最新版本
//        ArrayList<String> l=new ArrayList<String>() ;
//
//        try {
//            BufferedReader br = Files.newBufferedReader(Paths.get("conf/railwaywords.dict"), StandardCharsets.UTF_8);
//            long s = System.currentTimeMillis();
//            int count = 0;
//            while (br.ready()) {
//                String line = br.readLine();
//                String[] tokens = line.split("[\t ]+");
//                String word = tokens[0];
//                String word2=word+" 3";
//                l.add(word2);
//            }
//
//            br.close();
//        }
//        catch (IOException e) {
//
//        }
//        for (String w:l
//             ) {
//            System.out.println(w);
//        }

    }
}
